image crawlr - tamanobi

image crawlr

僕の代わりに画像を蒐集してくれるcrawlrが欲しい

クロール対象

ブログ（まとめサイト）

pixiv

danbooru

保存するデータ

画像バイナリ

保存元のURL

画像のタグ

クローラー用スクリプト

取得対象のURL

記事取得のための、セレクタ

画像取得のための、セレクタ(例: imgのsrc)

タグ取得のための、セレクタ

次の記事取得のためのセレクタ

技術スタック

end-to-end testing

Puppeteer or Playwright

HTMLパーサーでトラバーサル?

課題

画像の保存先(S3でも大した金額にならない。が、ダウンロードに時間がかかりそう。

S3 は outbound traffic で課金されるため、 Wasabi や Cloudflare R2 がいい。

#つくりたいもの #画像収集自動化